最近,在资源受限的移动设备上,轻巧的视觉变形金刚(VITS)具有出色的性能和较低的潜伏期,与轻量级卷积神经网络(CNNS)组成。搜索者发现了轻巧的VIT和轻量级CNN之间的许多结构连接。但是,尚未对块结构,宏和微观设计的显着建筑差异进行检查。在这项研究中,我们从VIT的角度和震撼人心的移动设备前景中重新审视了轻量级CNN的有效性。指定,我们通过集成了轻量级VIT的有效建筑设计,从而增强了标准轻量级CNN(即Mobilenetv3)的移动友好性。这最终带有一个新的纯轻质CNN家族,即重新投资。广泛的实验表明,重新投资优于现有的最先进的轻量级VIT,并在各种视觉任务中表现出有利的延迟。值得注意的是,在ImageNet上,Repvit在iPhone 12上以1.0毫秒的延迟达到了80%的前1次精度,这是我们最佳的首次使用轻量级型号。此外,当Repvit与SAM遇到SAM时,我们的Repvit-SAM比Advanced Mobilesam可以实现近10×的推理。代码和模型可在https://github.com/thu-mig/repvit上找到。
主要关键词